簡介:爬蟲技術(shù)用來從互聯(lián)網(wǎng)上自動(dòng)獲取需要的數(shù)據(jù)。課程從對(duì)爬蟲的介紹出發(fā),引入一個(gè)簡單爬蟲的技術(shù)架構(gòu),然后通過是什么、怎么做、現(xiàn)場演示三步驟,解釋爬蟲技術(shù)架構(gòu)中的三個(gè)模塊。最后,一套優(yōu)雅精美的爬蟲代碼實(shí)戰(zhàn)編寫,向大家演示了實(shí)戰(zhàn)抓取百度百科1000個(gè)頁面的數(shù)據(jù)全過程
第1章 課程介紹
本章對(duì)課程要學(xué)習(xí)的內(nèi)容進(jìn)行概覽,明確告訴大家將從課程中學(xué)到開發(fā)一個(gè)爬蟲所需的相關(guān)技術(shù)。
第2章 爬蟲簡介以及爬蟲的技術(shù)價(jià)值
本章介紹了爬蟲技術(shù)的含義,以及爬蟲這門技術(shù)存在的價(jià)值和意義
第3章 簡單爬蟲架構(gòu)
本章介紹了精心提煉的一個(gè)簡潔爬蟲技術(shù)架構(gòu),通過動(dòng)態(tài)圖介紹了技術(shù)架構(gòu)實(shí)現(xiàn)爬蟲任務(wù)的流程,使大家對(duì)爬蟲的整體組成和運(yùn)行流程有整體的把握。
第4章 URL管理器和實(shí)現(xiàn)方法
本章介紹了簡單爬蟲架構(gòu)的URL管理器模塊,用于管理待爬取的URL集合和已爬取的URL集合,也介紹了實(shí)現(xiàn)URL管理器的幾種方法
第5章 網(wǎng)頁下載器和urllib2模塊
本章介紹了簡單爬蟲架構(gòu)的網(wǎng)頁下載器模塊,將網(wǎng)頁下載下來然后才能進(jìn)行后續(xù)的數(shù)據(jù)提取,本章然后介紹了Python自帶的urllib2模塊的各種使用語法用于網(wǎng)頁的下載
第6章 網(wǎng)頁解析器和BeautifulSoup第三方模塊
本章介紹了簡單爬蟲架構(gòu)的網(wǎng)頁解析器模塊,解析器用于從網(wǎng)頁中提取價(jià)值數(shù)據(jù)和新的待爬取URL,本章然后介紹了BeautifulSoup這個(gè)強(qiáng)大的第三方模塊用于數(shù)據(jù)的解析和提取
第7章 實(shí)戰(zhàn)演練:爬取百度百科1000個(gè)頁面的數(shù)據(jù)
本章是課程的核心部分,通過一套精心設(shè)計(jì)并編寫的爬蟲代碼,實(shí)現(xiàn)了課程前面講述的簡單爬蟲架構(gòu)中各個(gè)組成部分,爬蟲代碼最終完成了百度百科1000個(gè)頁面的數(shù)據(jù)爬取并進(jìn)行了數(shù)據(jù)展示,本代碼經(jīng)過配置修改后,可以用來爬取任何網(wǎng)站數(shù)據(jù)。
第8章 課程總結(jié)
本章回顧了課程講過的知識(shí),對(duì)爬蟲的技術(shù)架構(gòu)有一個(gè)整體的回顧和把握,另外也對(duì)爬蟲技術(shù)的深入發(fā)展將會(huì)遇到的困難進(jìn)行了簡單展望